Constitutional AI(宪法 AI)
Anthropic 2022 年提出的 LLM 对齐方法,用一套原则("宪法")替代纯 RLHF 的偏好标注,规模化可扩展的对齐范式。
定义
Constitutional AI 是 Anthropic 在 2022 年论文 Constitutional AI: Harmlessness from AI Feedback 中提出的训练方法。核心思想:用一套书面"宪法原则"(如"不应有害"、"应当诚实"、"不应歧视"),让 AI 自我批评、自我修订输出,从而无需大量人工偏好标注就能实现安全对齐。
技术细节
两阶段训练:
-
监督学习阶段(SL-CAI):
- 模型生成回复 → 模型基于"宪法"自我批评 → 模型自我修订
- 用修订后的回复做监督微调
-
强化学习阶段(RL-CAI / RLAIF):
- 模型对比两个回复 → 基于"宪法"选哪个更符合原则
- 训练奖励模型 → 用 PPO 强化学习
与传统 RLHF 相比,Constitutional AI 的关键差异是 AI Feedback 替代 Human Feedback——奖励信号来自 AI 自评而非人工标注。
主要玩家
在 AI 产业链中的角色
Constitutional AI 是 4-03 子行业模型安全/对齐细分的核心方法论之一,与 RLHF / DPO 并列。它的最大价值在于解决了"人工标注成本与规模化对齐"的矛盾,让对齐过程可大规模并行化。
演进历史
相关概念
∈ belongs_to::4-03-模型生态与工具链